Modality representation learning is an important problem for multimodal sentiment analysis (MSA), since the highly distinguishable representations can contribute to improving the analysis effect. Previous works of MSA have usually focused on multimodal fusion strategies, and the deep study of modal representation learning was given less attention. Recently, contrastive learning has been confirmed effective at endowing the learned representation with stronger discriminate ability. Inspired by this, we explore the improvement approaches of modality representation with contrastive learning in this study. To this end, we devise a three-stages framework with multi-view contrastive learning to refine representations for the specific objectives. At the first stage, for the improvement of unimodal representations, we employ the supervised contrastive learning to pull samples within the same class together while the other samples are pushed apart. At the second stage, a self-supervised contrastive learning is designed for the improvement of the distilled unimodal representations after cross-modal interaction. At last, we leverage again the supervised contrastive learning to enhance the fused multimodal representation. After all the contrast trainings, we next achieve the classification task based on frozen representations. We conduct experiments on three open datasets, and results show the advance of our model.
translated by 谷歌翻译
基于3DCNN,ConvlSTM或光流的先前方法在视频显着对象检测(VSOD)方面取得了巨大成功。但是,它们仍然遭受高计算成本或产生的显着图质量较差的困扰。为了解决这些问题,我们设计了一个基于时空存储器(STM)网络,该网络从相邻帧中提取当前帧的有用时间信息作为VSOD的时间分支。此外,以前的方法仅考虑无时间关联的单帧预测。结果,模型可能无法充分关注时间信息。因此,我们最初将框架间的对象运动预测引入VSOD。我们的模型遵循标准编码器 - 编码器体系结构。在编码阶段,我们通过使用电流及其相邻帧的高级功能来生成高级的时间特征。这种方法比基于光流的方法更有效。在解码阶段,我们提出了一种有效的空间和时间分支融合策略。高级特征的语义信息用于融合低级特征中的对象细节,然后逐步获得时空特征以重建显着性图。此外,受图像显着对象检测(ISOD)中常用的边界监督的启发,我们设计了一种运动感知损失,用于预测对象边界运动,并同时对VSOD和对象运动预测执行多任务学习,这可以进一步促进模型以提取提取的模型时空特征准确并保持对象完整性。在几个数据集上进行的广泛实验证明了我们方法的有效性,并且可以在某些数据集上实现最新指标。所提出的模型不需要光流或其他预处理,并且在推理过程中可以达到近100 fps的速度。
translated by 谷歌翻译
边缘计算是加速机器学习算法支持移动设备的流行目标,而无需通信潜伏在云中处理它们。机器学习的边缘部署主要考虑传统问题,例如其安装的交换约束(尺寸,重量和功率)。但是,考虑到体现能量和碳的重要贡献,这种指标不足以考虑计算的环境影响。在本文中,我们探讨了用于推理和在线培训的卷积神经网络加速引擎的权衡。特别是,我们探讨了内存处理(PIM)方法,移动GPU加速器以及最近发布的FPGA的使用,并将它们与新颖的赛车记忆PIM进行比较。用赛车记忆PIM替换支持PIM的DDR3可以恢复其体现的能量,以至于1年。对于高活动比,与支持PIM的赛车记忆相比,移动GPU可以更可持续,但具有更高的体现能量可以克服。
translated by 谷歌翻译
从非结构化网络文本中提取网络安全实体,例如攻击者和漏洞是安全分析的重要组成部分。但是,智能数据的稀疏性是由较高的频率变化产生的,并且网络安全实体名称的随机性使得当前方法在提取与安全相关的概念和实体方面很难表现良好。为此,我们提出了一种语义增强方法,该方法结合了不同的语言特征,以丰富输入令牌的表示,以通过非结构化文本检测和对网络安全名称进行分类。特别是,我们编码和汇总每个输入令牌的组成特征,形态特征和语音特征的一部分,以提高方法的鲁棒性。不仅如此,令牌从其在网络安全域中最相似的k单词获得了增强的语义信息,在该语料库中,将一个细心的模块借给了一个单词的差异,并从基于大规模的一般田野语料库的上下文线索中权衡了差异。我们已经在网络安全数据集DNRTI和MalwaretextDB上进行了实验,结果证明了该方法的有效性。
translated by 谷歌翻译
对抗商业黑匣子语音平台的对抗攻击,包括云语音API和语音控制设备,直到近年来接受了很少的关注。目前的“黑匣子”攻击所有严重依赖于预测/置信度评分的知识,以加工有效的对抗示例,这可以通过服务提供商直观地捍卫,而不返回这些消息。在本文中,我们提出了在更实用和严格的情况下提出了两种新的对抗攻击。对于商业云演讲API,我们提出了一个决定的黑匣子逆势攻击,这些攻击是唯一的最终决定。在偶变中,我们将决策的AE发电作为一个不连续的大规模全局优化问题,并通过自适应地将该复杂问题自适应地分解成一组子问题并协同优化每个问题来解决它。我们的春天是一种齐全的所有方法,它在一个广泛的流行语音和扬声器识别API,包括谷歌,阿里巴巴,微软,腾讯,达到100%的攻击攻击速度100%的攻击率。 iflytek,和景东,表现出最先进的黑箱攻击。对于商业语音控制设备,我们提出了Ni-Occam,第一个非交互式物理对手攻击,而对手不需要查询Oracle并且无法访问其内部信息和培训数据。我们将对抗性攻击与模型反演攻击相结合,从而产生具有高可转换性的物理有效的音频AE,而无需与目标设备的任何交互。我们的实验结果表明,NI-Occam可以成功欺骗苹果Siri,Microsoft Cortana,Google Assistant,Iflytek和Amazon Echo,平均SRO为52%和SNR为9.65dB,对抗语音控制设备的非交互式物理攻击。
translated by 谷歌翻译
最近对知识蒸馏的研究发现,组合来自多位教师或学生的“黑暗知识”是有助于为培训创造更好的软目标,但以更大的计算和/或参数的成本为本。在这项工作中,我们通过在同一批量中传播和集合其他样本的知识来提供批处理知识合奏(烘焙)以生产用于锚固图像的精细柔软目标。具体地,对于每个感兴趣的样本,根据采样间的亲和力加权知识的传播,其与当前网络一起估计。然后可以集合传播的知识以形成更好的蒸馏靶。通过这种方式,我们的烘焙框架只通过单个网络跨多个样本进行在线知识。与现有知识合并方法相比,它需要最小的计算和内存开销。广泛的实验表明,轻质但有效的烘烤始终如一地提升多个数据集上各种架构的分类性能,例如,在想象网上的显着+ 0.7%的VINE-T的增益,只有+ 1.5%计算开销和零附加参数。烘焙不仅改善了Vanilla基线,还超越了所有基准的单一网络最先进。
translated by 谷歌翻译
在视频中检测动作已被广泛应用于设备应用程序。实用的设备视频始终没有动作和背景。希望既可以识别动作类别又定位动作发生的时间位置。这样的任务称为“时间动作位置”(TAL),该位置总是在收集和标记多个未修剪视频的云上训练。希望TAL模型不断地从新数据中学习,这可以直接提高动作检测精度,同时保护客户的隐私。但是,训练TAL模型是不平凡的,因为需要具有时间注释的大量视频样本。但是,逐帧的注释视频非常耗时且昂贵。尽管已经提出了仅使用视频级标签的未修剪视频来学习弱监督的TAL(W-TAL),但这种方法也不适合在设备学习方案中。在实用的设备学习应用中,在流中收集数据。将如此长的视频流分为多个视频片段需要大量的人为努力,这阻碍了将TAL任务应用于现实的设备学习应用程序的探索。为了使W-TAL模型能够从长时间的未修剪流视频中学习,我们提出了一种有效的视频学习方法,可以直接适应新的环境。我们首先提出了一种自适应视频划分方法,采用基于对比分数的段合并方法将视频流转换为多个段。然后,我们探索TAL任务上的不同采样策略,以要求尽可能少的标签。据我们所知,我们是直接从设备的长视频流中学习的首次尝试。
translated by 谷歌翻译
Square-Root Lasso问题被证明是强大的回归问题。此外,结构化稀疏性的平方根回归问题也在统计和机器学习中起着重要作用。在本文中,我们专注于大规模线性约束稀疏组方形套索问题的数值计算。为了克服客观函数中有两个非空体术语的困难,我们为其提出了一种基于双半法牛顿(SSN)的增强拉格朗日方法(ALM)。也就是说,我们将ALM应用于SSN方法解决的子问题的双重问题。为了应用SSN方法,广义雅可比的正肯定非常重要。因此,我们表征了其积极明确度的等价性和相应的原始问题的约束不平衡条件。在数值实现中,我们完全采用二阶稀疏性,以便可以有效地获得牛顿方向。数值实验证明了所提出的算法的效率。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译